視訊模型Seedance 2.0、圖像模型Seedream 5.0 Lite連續刷屏後,2月14日,字節跳動正式宣佈推出豆包大模型2.0(Doubao-Seed-2.0,簡稱豆包2.0)系列。自2023年,豆包大模型初始測試版上線,2024年正式對外發佈,豆包代際模型版本更新已經過去近一年半時間。其間持續在文字基礎、多模態強化、深度思考、Agent(智能體)執行等方面更新,直至此次版本,在2.0全能力升級。此次備受關注的2.0版本,具備全端模型矩陣 + 多模態理解 + 企業級 Agent + 極致成本四大差異化優勢,已躋身全球第一梯隊,成為 Agent 時代的關鍵玩家。在多項公開測試集上表現突出,接近Google Gemini3,和具備更高性價比。字節跳動官方明確表示,旗艦版豆包2.0 Pro“面向深度推理與長鏈路任務執行場景,全面對標GPT 5.2與Gemini 3 Pro”。從技術參數到產品定位,豆包2.0與Google Gemini的相似性正在從“對標”走向“一致”。而這種“一致”並非偶然的“撞車”,本質是全球頂尖AI實驗室在通往通用人工智慧(AGI)路徑上達成的戰略共識——AI最終需要為人類完成任務執行,而這需要對真實世界物理運行規律的理解。版本代際更新此次更新,豆包2.0 系列模型提供 Pro、Lite、Mini 三款不同尺寸的通用 Agent 模型。該系列通用模型的多模態理解能力實現全面升級,並強化了LLM 與Agent 能力,使模型在真實長鏈路任務中能夠穩定推進。同時進一步把能力邊界從競賽級推理擴展到研究級任務,在高經濟價值與科研價值任務評測中達到業界第一梯隊水平。據官方介紹,此次豆包2.0針對大規模生產環境的使用需求進行系統性最佳化,旨在更好地完成真實世界的複雜任務。其中,在語言模型基礎能力上,豆包2.0 Pro旗艦版取得IMO、CMO數學競賽和ICPC程式設計競賽金牌成績,數學和推理能力達到世界頂尖水平。另外,大模型執行長鏈路複雜任務,需要豐富的世界知識。豆包2.0加強了長尾領域知識覆蓋,在SuperGPQA等多項公開測試集上表現突出,科學領域知識測試成績與Gemini 3 Pro和GPT 5.2相當,在跨學科知識應用上也排名前列。在教育、娛樂、辦公等眾多場景中,大模型需要理解圖表、複雜文件、視訊等內容。對此,豆包2.0全面升級多模態理解能力,視覺推理、空間感知、長上下文理解等權威測試均取得業界最佳表現。面對動態場景,豆包2.0強化了對時間序列與運動感知的理解能力。以健身場景為例,接入豆包2.0的智能健身App可即時分析使用者動作視訊,一旦檢測到深蹲姿勢偏移,立即語音糾正——這正是環境感知與主動互動能力的落地。目前,這一能力已延伸至穿搭建議、老人看護等領域。Agent能力是大模型具備行動力的關鍵。測試成績顯示,豆包2.0 Pro在指令遵循、工具呼叫和Search Agent等評測中達到頂尖水平,在HLE-Text(人類的最後考試)上更是獲得54.2的最高分,大幅領先於其他模型。目前,豆包2.0 Pro已在豆包App、電腦客戶端和網頁版上線,使用者選擇專家模式即可對話體驗。火山引擎也已上線豆包2.0系列模型API服務。價格方面,豆包2.0 Pro按“輸入長度”區間定價,32k以內的輸入定價為3.2元/百萬tokens,輸出定價為16元/百萬tokens,相比Gemini 3 Pro和GPT 5.2有較大的成本優勢。豆包2.0 Lite更是極具性價比,綜合性能超越兩個月前發佈的上一代主力模型豆包1.8,百萬tokens輸入價格僅為0.6元。強化執行任務能力此次豆包2.0的全面升級,核心落點在“真實世界複雜任務的執行力”。而這一能力的根基,正是多模態理解層的突破——只有讓模型真正看懂物理世界的動態與邏輯,它才能從“答題者”進化為“執行者”。字節模型團隊觀察到一個典型失衡:語言模型已經可以順利解決競賽難題,但放在真實世界中,它們依然很難端到端地完成實際任務——比如一次性建構一個設計精良、功能完整的小程序。LLM 和 Agent 為什麼在處理現實問題時屢屢碰壁?團隊認為,原因主要來自兩點:真實世界任務往往跨越更長時間尺度、包含多個階段,而現有LLM Agent 難以自主建構高效工作流,並在長時間跨度中積累經驗;真實世界知識具有很強的領域壁壘且呈長尾分佈,各行業的經驗不在訓練語料的高頻區,導致即便模型擅長數學與程式碼,其在專業場景中往往價值有限。在提升了長程任務執行能力的同時,Seed2.0 還進一步降低了推理成本。其模型效果與業界頂尖大模型相當,同時 token 定價降低了約一個數量級。在現實世界的複雜任務中,由於大規模推理與長鏈路生成將消耗大量token,這一成本優勢將變得更為關鍵。另外在多模態理解能力方面,豆包2.0Pro在視覺推理、空間感知、運動理解、長視訊理解等維度,在大多數相關基準測試中取得最高分。此前刷屏AI視訊模型Seedance2.0正是多模態能力支撐的體現之一。Seedance 2.0核心升級主要體現在原聲音畫同步、多鏡頭長敘事、多模態可控生成。使用者輸入提示詞與參考圖,可一鍵生成帶完整原生音軌的多鏡頭視訊,模型自動解析敘事邏輯,確保角色、光影、風格與氛圍高度統一。此前馬斯克點評稱:模型發展非常迅速。據官方介紹,豆包2.0可以處理複雜視覺輸入,並完成即時互動和應用生成。無論是從圖像中提取結構化資訊,還是通過視覺輸入生成互動式內容,Seed2.0都能高效、穩定地完成任務。這正是Gemini一直強調的“原生多模態”能力——不是簡單拼接視覺與語言,而是在底層實現跨模態的深度對齊。豆包2.0的升級方向與Google的Gemini 3 Pro在視訊理解、空間推理上的優勢高度一致。而豆包2.0與Gemini在基礎模型層面均選擇死磕多模態,本質上是在進行一場 “世界模型”的軍備競賽。它們不再滿足於讓AI做一個“語言遊戲高手”,而是希望AI成為一個能看懂、聽懂、理解物理世界複雜性的“數字人類”。只有當模型真正理解了杯子為什麼會碎、人為什麼會笑、視訊裡的人在做什麼動作,它才能在現實世界中可靠地執行任務。 (第一財經)